# Report: studio sincronizzazione variabili condivise e istruzioni atomiche su architettura RISC-V

Esame di Embedded systems - 056899 A.A. 2023/2024

Francesco Maria Tranquillo Gioele Peltrera

## Introduzione

In questo report analizzeremo i metodi software per la sincronizzazione multi-thread e la loro implementazione hardware, tra cui mutex, semafori, spinlock e compare exchange. Inoltre affronteremo anche il tema delle istruzioni atomiche e illustreremo una soluzione architetturale per una cpu RISC-V che possa supportare tali soluzioni.

I test eseguiti sono frutto di simulazioni attraverso la piattaforma gem5, utilizzando una cpu timing o O3 a due core, con un protocollo di coerenza MESI a due livelli implementato attraverso Ruby e sistema operativo Linux.

```
import m5
from m5.objects import Root
from gem5.components.boards.riscv_board import RiscvBoard
from gem5.components.cachehierarchies.ruby.mesi_two_level_cache_hierarchy import (
       MESITwoLevelCacheHierarchy,
from gem5.coherence_protocol import CoherenceProtocol from gem5.components.memory import SingleChannelDDR3_1600 from gem5.components.processors.cpu_types import CPUTypes
       m gem5.components.processors.simple_switchable_processor import (
SimpleSwitchableProcessor,
from gem5.isas import ISA
from gem5.resources.resource import DiskImageResource, obtain_resource, CheckpointResource from gem5.simulate.simulator import Simulator from gem5.utils.requires import requires
requires(
       isa_required=ISA.RISCV,
coherence_protocol_required=CoherenceProtocol.MESI_TWO_LEVEL,
# Setup the cache hierarchy.
# For classic, PrivateL1PrivateL2 and NoCache have been tested.
# For Ruby, MESI_Two_Level and MI_example have been tested.
cache_hierarchy = MESITwoLevelCacheHierarchy(
      he_hierarchy = ME:
l1d_size="32kB",
l1d_assoc=8,
l1i_size="32kB",
l1i_assoc=8,
l2_size="256kB",
l2_assoc=16,
num_l2_banks=2,
# Setup the system memory.
memory = SingleChannelDDR3_1600()
processor = SimpleSwitchableProcessor(
      starting_core_type = CPUTypes.ATOMIC,
switch_core_type=CPUTypes.03,#CPUTypes.TIMING,
        isa=ISA.RISCV,
       num cores=2
board = RiscvBoard(
    clk_freq="1GHz",
    processor=processor,
    memory=memory,
    cache_hierarchy=cache_hierarchy,
board.set_kernel_disk_workload(
       kernel=obtain_resource("riscv-bootloader-vmlinux-5.10","/home/user/Documents/POLIMI/HD/binaries/"
disk_image=DiskImageResource("/home/user/Documents/POLIMI/HD/ubuntu_ARM/riscv-disk-img"),
    readfile="/home/user/Documents/POLIMI/HD/sources/acquire_release",
    checkpoint = CheckpointResource("/home/user/Documents/POLIMI/HD/gem5_installation/gem5/m5out/cpt.
281422923000")
```

```
simulator = Simulator(board=board)
print("Beginning simulation!")

# Note: This simulation will never stop. You can access the terminal upon boot
# using m5term (`./util/term`): `./m5term localhost <port>`. Note the `<port>`
# value is obtained from the gem5 terminal stdout. Look out for
# "system.platform.terminal: Listening for connections on port <port>".
simulator.run()
```

Per ottenere dei risultati più significativi, all'inizio del codice di ogni thread verrà messo un ciclo che continuerà a ripetersi finché entrambi i thread non si troveranno in quello stesso ciclo, così che il primo thread creato non inizi subito l'esecuzione della zona critica prima che il secondo thread venga creato dal main.

## SpinLock

```
| ##Include statios.h>
```

Lo spin lock esegue un'operazione di atomic-swap (marchiata come acquire, ergo tutte le operazioni successive alla swap non potranno essere riordinate ed eseguite prima di questa operazione atomica).

Successivamente se l'atomic swap dovesse aver fallito, quindi nel caso in cui il valore contenuto all'indirizzo di memoria della variabile globale di lock fosse già 1, grazie alla "bnez" invece che concludere la funzione con una ret, passiamo ad un loop, che precede la logica di load reserve-store conditional.

```
000000000001a940 <__pthread_spin_lock>:
           0cf527af
                               amoswap.w.aq
                                              a5,a5,(a0)
   1a946: 2781
                               sext.w a5,a5
  1a948: e399
                               bnez a5,1a94e <__pthread_spin_lock+0xe>
  1a94a: 4501
                               li a0,0
  1a94c: 8082
                              li a4,1 NON PRESO LOCK
lw a5,0(a0)
  1a94e: 4705
  1a950:
  1a952:
                               bnez a5,1a950 <__pthread_spin_lock+0x10>
                               lr.w a5,(a0)
bnez a5,1a960 <__pthread_spin_lock+0x20>
   1a954:
           100527af
           e781
   1a958:
   1a95a:
           1ce526af
                               sc.w.aq a3,a4,(a0)
                               bnez a3,1a954 <__pthread_spin_lock+0x14>
   1a95e:
           fafd
                               sext.w a5,a5
   1a960:
           2781
  1a962:
                               bnez a5,1a950 <__pthread_spin_lock+0x10>
           f7fd
   1a964: 4501
                               li a0,0
   1a966: 8082
00000000001a968 <__pthread_spin_unlock>:
   1a968: 0f50000f
                                fence iorw,ow
   1a96c: 0805202f
                                amoswap.w zero,zero,(a0)
   1a970: 4501
                                li a0,0
   1a972: 8082
                                ret
```

Il core switch1, a riga 618, è il primo a concludere correttamente l'atomic swap, quindi tutte le successive atomic swap non ritorneranno più 0, ma 1 (l'indirizzo 0x8a8b0 si vede dal file di object dump che rappresenta l'indirizzo della variabile globale sp. lock).

```
290489370000: board.cache_hierarchy.ruby_system.il_controllersi.tiDoache: No tag match for address: 0x101208940
290489371000: board.processor.switch1.core.mmu.dtb: translate(vpn=0x8a8b0, asid=0): hit ppn 0x10107d8b0
controllersi.tiDoache: address: 0x10107d8b0 controllersi.tiDoache: address: 0x10107d8b0 controllersi.tiDoache: address: 0x10107d8b0 controllersi.tiDoache: address: 0x10107d8b0 controllersi.tiDoache: address: 0x10107d8b0 controllersi.tiDoache: address: 0x10107d8b0 controllersi.tiDoache: address: 0x10107d8b0 controllersi.tiDoache: address: 0x10107d8b0 controllersi.tiDoache: address: 0x10107d8b0 controllersi.tiDoache: address: 0x10107d8b0 controllersi.tiDoache: address: 0x10107d8b0 controllersi.tiDoache: address: 0x10107d8b0 controllersi.tiDoache: address: 0x10107d8b0 controllersi.tiDoache: address: 0x10107d8b0 cide controllersi.tiDoache: address: 0x10107db0 ci
```

Il core switch0, a riga 670, ritorna dall'atomic swap con un risultato diverso da 0 dopo aver fatto una miss sulla variabile sp\_lock, poichè la sua entry (presente nella cache L1 del core) è stata invalidata dalla prima atomic swap del core 1.

A riga 701 si vede che il core switch0 che ha eseguito la jump iniziare a ciclare sulla variabile di spin lock prima della load reserve, tanto è vero che a riga 707 switch0 richiede l'indirizzo di memoria per la variabile sp. lock, questa volta risultando in una hit.

```
memoria per la variabile sp_lock, questa volta risultando in una hit.

290489387080: board processor.switch0.core.mmu.itb: lookup(vpn=0x1a948, asid=0): hit ppn 0x101268
290489387090: board processor.switch0.core.mmu.itb: translate(vpn=0x1a948, asid=0): 0x101268940
290489388000: board.cache_hierarchy.ruby_system.ll_controllers0.LlDcache: No tag match for address: 0x101268940
290489388000: board.cache_hierarchy.ruby_system.ll_controllers0.sequencer: Cache hit at [0x10126948, line 0x101268940]
290489389000: board.cache_hierarchy.ruby_system.ll_controllers0.sequencer: 0x101269.sequencer: 0x10126948
290489389000: board.cache_hierarchy.ruby_system.ll_controllers0.sequencer: 0x10126948.sequencer: 0x10126948
290489399000: board.cache_hierarchy.ruby_system.ll_controllers0.sequencer: 0x10126948.sequencer: 0x101269596.sequencer: 0x1012
```

A riga 2015 inizia la fase di unlock del core switch1, che recupera la variabile sp lock facendo anche lui hit.

Entrambi i core riescono a fare hit poiché la variabile sp lock è usata da entrambi in sola

Ariga 2055 lo switch1 libera con un'altra atomic-swap lo spin lock.

```
20555 lo switch1 libera con un'altra atomic-swap lo spin lock.

20040533000 board processor switch1 core.mm.itb: lockup(yn=bit85e4, asid=0): hit ppn 8x10125e pal=>spin_unlock
20040533000 board processor.switch1 core.mm.itb: lockup(yn=bit85e4, asid=0): hit ppn 8x10125e pal=>spin_unlock
20040533000 board processor.switch6 core.mm.dtb: lockup(yn=bit85e4, asid=0): hit ppn 8x101076
20040533000 board processor.switch6 core.mm.dtb: lockup(yn=bit86e4, asid=0): kn10125e3
200405033000 board processor.switch6 core.mm.dtb: lockup(yn=bit86e4): kn1010762b0
200405034000 board (ache_hierarchy.ruby_system1].controllers0.libcache: address: 0x1010762b0
200405034000 board (ache_hierarchy.ruby_system1].controllers0.libcache: address: 0x1010762b0 lockup.controllers0.libcache: address: 0x1010762b0 lockup.controllers0.libcache: address: 0x1010762b0 lockup.controllers0.libcache: address: 0x1010762b0 lockup.controllers0.libcache: address: 0x1010768b0 lockup.controllers0.libcache: board (ache_hierarchy.ruby_system1].controllers0.libcache: lockup.controllers0.libcache: 0x100762b0 lockup.controllers0.libcache: lock
```

A riga 2121, quando si conclude l'unlock, il core 1 fa miss sull'indirizzo della variabile sp\_lock, poiché la modifica fatta dall'atomic-swap invalida tutti i blocchi della cache.

```
global: Testing Lock for addr: 0x10107d880 cur -1 con 1
290489657000
                    board.cache_hierarchy.ruby_system.ll_controllers1.sequencer: Cache miss at [0x10107d8b0, line 0x10107d880] board.cache_hierarchy.ruby_system.ll_controllers1.llDcacne: address: 0x1010/d880 tound board.cache_hierarchy.ruby_system.ll_controllers1.LlDcacne: No tag match for address: 0x10107d880
290489657000:
290489657000:
290489658000: board.processor.switch1.core.mmu.itb: lookup(vpn=0x1a970, asid=0): hit ppn 0x101268
290489658000: board.processor.switch1.core.mmu.itb: translate(vpn=0x1a970, asid=0): 0x101268970
290489658000: board.cache_hierarchy.ruby_system.l2_controllers0: MESI_Two_Level-L2cache.sm:373: Addr: 0x10107d880 State: SS_MB
                    board.cache_hierarchy.ruby_system.ll_controllers1.L1Dcache: No tag match for address: 0x101268940
290489659000: board.cache_hierarchy.ruby_system.ll_controllers1: MESI_Two_Level-Licache.sm:843: [ 0x85 0x47 0xaf 0x27 0xf5 0xc 290489659000: board.cache_hierarchy.ruby_system.ll_controllers1.sequencer: Cache hit at [0x101268970, line 0x101268940]
290489659000: board.cache_hierarchy.ruby_system.ll_controllers1.LlDcache: No tag match for address: 0x101268940
```

A riga 2208 il core 0 esegue la load reserve

```
290489676000: board.processor.switch1.core.mmu.itb: lookup(vpn=0x105f4, asid=0): hit ppn 0x1012 290489676000: board.processor.switch1.core.mmu.itb: translate(vpn=0x105f4, asid=0): 0x10125e5f4
290489676000: board.processor switch0 core.mmu.itb: lookup(vpn=0x10974, asid=0): bx10125e514
290489676000: board.processor switch0 core.mmu.itb: translate(vpn=0x1a954, asid=0): bx101268954
290489677000: board.cache_hierarchy.ruby_system.ll_controllers0.LlDcache: No tag match for address: 0x101268940
290489677000: board.cache_hierarchy.ruby_system.ll_controllers0.LlDcache: No tag match for address: 0x101268940
290489677000: board.cache_hierarchy.ruby_system.ll_controllers0.LlDcache: No tag match for address: 0x101268940
290489677000: board.cache_hierarchy.ruby_system.ll_controllers1.sequencer: Cache hit at [0x10125e5f4, line 0x10125e5c0] 290489677000: board.cache_hierarchy.ruby_system.ll_controllers1.LlDcache: No tag match for address: 0x10125e5c0 290489678000: board.processor.switch0.core.mmu.dtb: lookup(vpn=0x8a8b0, asid=0): hit ppn 0x10107d
290489678000: board.processor.switch0.core.mmu.dtb: translate(vpn=0x8a8b0, asid=0): 0x10107d8b0
290489678000: board.processor.switch1.core.mmu.dtb: translate(vpn=0x3fd4660c14, asid=0): hit ppn 0x2781c4
290489678000: board.processor.switch1.core.mmu.dtb: translate(vpn=0x3fd4660c14, asid=0): 0x2781c4c14
290489678000: board.processor.switch1.core.mmu.dtb: translate(vpn=0x3fd4660c14, asid=0): 0x2781c4c14
290489678000: board.cache_hierarchy.ruby_system.12_controllers0: MESI_Two_Level-L2cache.sm:309: Addr: 0x10107d880 State: MT_SB
  290489678000: board.cache_hierarchy.ruby_system.l2_controllers0: MESI_Two_Level-L2cache.sm:190: machineID: L2Cache-0, requesto:
```

e a riga 2233 grazie al messaggio "global: Setting Lock":

la load reserve scrive sul lock globale il valore univoco corrispondente al suo contesto e, a riga 2343-44, con i messaggi:

la store conditional si conclude correttamente, seguita da una miss, sempre a causa dell'invalidazione del blocco di memoria data da una modifica.

## Compare exchange

```
#Include stddto.h>
#include stddtoh.b>
#include stddtoh.b

#include stdhtoh.p

#include stdhtoh.p

#include stdhtoh.p

#include stdhtoh.p

#include stdhtoh.p

#include stdhtoh.p

#includ
```

Per quanto riguarda l'atomic\_compare\_exchange(), quello che si cerca di fare è modificare il valore contenuto nella variabile condivisa dai thread, gli si passa il valore atteso che dev'essere conenuto al momento della chiamata a funzione e: in caso il valore fosse corretto si modifica la variabile condivisa con il valore desiderato, mentre in caso contrario si modifica semplicemente il valore atteso con il valore contenuto nella variabile condivisa in questo momento. La funzione atomic\_compare\_exchange(), viene tradotta dal compilatore direttamente come una load reserve, store conditional.

A riga 2624: entrambi i thread arrivano alla prima load reserve ed entrambi hanno come next state S (poiché quella pagina contiene un'istruzione, quindi non da modificare)

A riga 2672: il core 1 è il primo ad acquisire il lock con:

- Issuing LL
- LLSC Monitor inserting load linked addr=0x10107d880 cpu=1
- Cache hit at [0x10107d8b4, line 0x10107d880]
- next\_state: M

qui next state è M, nonostante basti lo stato S, poiché già si trovava in M prima della load (e non è ancora stata eseguita la write back).

```
290489696000: board.cache_hierarchy.ruby_system.ll_controllers1.LiDcache: No tag match for address: 0x10125e5c0
290489697000: board.processor.switch6.core.mmu.dtb: lookup(vpne0x88044, asid=0): htt ppn 0xx1010740
290489697000: board.processor.switch6.core.mmu.dtb: translate(vpne0x88044, asid=0): htt ppn 0xx1010740
290489697000: board.cache_hierarchy.ruby_system.ll_controllers0.sequencer:.esponse_ports1: Timing request for address 0x101074084 on port 1
290489697000: board.cache_hierarchy.ruby_system.ll_controllers0.sequencer:.esponse_ports1: Timing request for address 0x101074084 on port 1
290489697000: board.cache_hierarchy.ruby_system.ll_controllers0.sequencer:.esponse_ports1: Request LoadLockedKeq 0x1010740844 issued
290489697000: board.cache_hierarchy.ruby_system.ll_controllers0.sequencer:.esponse_ports1: Request LoadLockedKeq 0x1010740844 issued
290489697000: board.processor.switch1.core.mmu.dtb: tlookup(vpne0x88044, asid=0): hit ppn 0x1010740844
290489697000: board.processor.switch1.core.mmu.dtb: translate(vpne0x880844, asid=0): hit ppn 0x1010740844
290489697000: board.processor.switch1.core.isa: [cid:1]: Reserved address 1010740844.
290489697000: board.cache_hierarchy.ruby_system.ll_controllers1.sequencer:.esponse_ports1: Timing request for address 0x1010740844 on port 1
290489697000: board.cache_hierarchy.ruby_system.ll_controllers1.sequencer:.esponse_ports1: Request LoadLockedKeq 0x1010740844 on port 1
290489697000: board.cache_hierarchy.ruby_system.ll_controllers1.sequencer:.esponse_ports1: Request LoadLockedKeq 0x1010740844 issued
290489690000: board.cache_hierarchy.ruby_system.ll_controllers1.sequencer:.espons
```

Il core 1 ottiene il lock a seguito della found (a riga 2674) per la pagina della shared variable. Successivamente a riga 2676 c'è la risposta (come detto prima in stato M), mentre a riga 2693 anche il core 0 fa address found, ma si trova in stato I (a riga 2695).

Da riga 2744 a riga 2749: il core 1 finisce con la store conditional e verifica che la reservation fosse ancora valida (riga 2766, 2767), concludendo con lo stato M.

```
John Charles, Herarchy, Judy System, 11, Controllers, New Lag match for address; 0x10125e5c0

Joard. processor. switch. core.mmu.dtb: lookup(ypn-0x8a8b4, asid=0): hit ppn 0x10107d

| board.processor.switch.core.mmu.dtb: translate(ypn-0x8a8b4, asid=0): 0x10107d8b4
| board.processor.switch.core.issi [cid:1]: load processor.dtb: 0x10107d8b4
| board.cache_hierarchy.ruby_system.ll_controllersi.sequencer.response_portsi: liming request for address 0x1010
| board.cache_hierarchy.ruby_system.ll_controllersi.sequencer.response_portsi: Request StoreCondReq 0x10107d8b4
| board.cache_hierarchy.ruby_system.ll_controllersi.sequencer.response_portsi
| board.cache_hierarchy.ruby_system.ll_controllersi.sequencer.response_portsi
| board.cache_hierarchy.ruby_system.ll_controllersi.sequencer.response_portsi
| board.cache_hierarchy.ruby_system.ll_controllersi.sequencer.response_portsi
| board.cache_hierarchy.ruby_system.ll_controllersi.sequencer.response_portsi: Hit callback done!
| board.cache_hiera
```

A riga 2899: il core 0 fa miss sulla entry di cache della shared variable, quindi recupera la entry che adesso può tornare in stato S. Infatti a riga 2909 viene fatta fare la write back dal core 1.

```
che adesso può tornare in stato S. Infatti a riga 2909 viene fatta fare la write back dal core 1.

2895 : board.cache_hierarchy.ruby_system.ll_controllers0: ME5I_Two_Level-Licache.sm:814: 0x10107d880

2896 : board.cache_hierarchy.ruby_system.ll_controllers0: executing hx_load_hit

2897 : board.cache_hierarchy.ruby_system.ll_controllers0: executing hx_load_hit

2898 : global: Setting Lock for addr: 0x10107d880 to 0

2899 : board.cache_hierarchy.ruby_system.ll_controllers0. sequencer:

2890 : board.cache_hierarchy.ruby_system.ll_controllers0. sequencer:

2900 : board.cache_hierarchy.ruby_system.ll_controllers0. sequencer:

2901 : board.cache_hierarchy.ruby_system.ll_controllers0. sequencer:

2902 : board.cache_hierarchy.ruby_system.ll_controllers0. sequencer:

2903 : board.cache_hierarchy.ruby_system.ll_controllers0. sequencer:

2904 : board.cache_hierarchy.ruby_system.ll_controllers0. sequencer:

2905 : board.cache_hierarchy.ruby_system.ll_controllers0. sequencer:

2906 : board.cache_hierarchy.ruby_system.ll_controllers0. sequencer:

2907 : board.cache_hierarchy.ruby_system.ll_controllers0. sequencer:

2908 : board.cache_hierarchy.ruby_system.ll_controllers0. sequencer:

2909 : board.cache_hierarchy.ruby_system.ll_controllers0. sequencer:

2909 : board.cache_hierarchy.ruby_system.ll_controllers0. sequencer:

2909 : board.cache_hierarchy.ruby_system.ll_controllers0. sequencer:

2900 : board.cache_hierarchy.ruby_system.ll_controllers0. sequencer:

2901 : board.cache_hierarchy.ruby_system.ll_controllers0. secuting 0 popincomingResponseQueue

2902 : board.cache_hierarchy.ruby_system.ll_controllers0.

2903 : board.cache_hierarchy.ruby_system.ll_controllers0.

2906 : board.cache_hierarchy.ruby_system.ll_controllers0.

2907 : board.cache_hierarchy.ruby_system.ll_controllers0.

2908 : board.cache_hierarchy.ruby_system.ll_controllers0.

2909 : board.cache_hierarchy.ruby_system.ll_controllers0.

2900 : board.cache_hierarchy.ruby_system.ll_controllers0.

2901 : board.cache_hierarchy.ruby_system.ll_controllers0.

2901 : boa
```

A riga 4719 il core 0 raggiunge la load reserve, fa lookup sulla shared variable (4757) e riesce a concludere la load reserve (4784).

Da qui in poi quando prendo la load reserve sulla shared variable lo stato sarà S e passerà in stato M solo dopo la store conditional (riga 5122).

A riga 5034: il core 0 sta per eseguire la store conditional, quindi la entry di shared variable della sua cache passa dallo stato S a SM, invalidando così le entry di tutte le altre cache. Infatti si può notare che a riga 5043 il core 1 si trova in stato I per quella entry.

```
: board.cache_hierarchy.ruby_system.ll_controllers0: [L1Cache_Controller 0], Time: 290489828, state: SM, event: Ack, addr: 0x10107d880
5032 : board.cache_hierarchy.ruby_system.ll_controllers0: executing q_updateAckCount
5033 : board.cache_hierarchy.ruby_system.ll_controllers0: executing q_updateAckCount
5034 : board.cache_hierarchy.ruby_system.ll_controllers0: next_state: SM
5035 : board.cache_hierarchy.ruby_system.ll_controllers0.L1Dcache: address: 0x10107d880 found
5036 : board.cache_hierarchy.ruby_system.ll_controllers1.L1Dcache: address: 0x10107d880 found
5037 : board.cache_hierarchy.ruby_system.ll_controllers1.L1Dcache: address: 0x10107d880 found
5038 : board.cache_hierarchy.ruby_system.ll_controllers1.L1Dcache: No tag match for address: 0x10107d880
5039 : board.cache_hierarchy.ruby_system.ll_controllers1.E1L1Cache_Controller 1], Time: 290489828, state: S, event: Inv, addr: 0x10107d880
5040 : board.cache_hierarchy.ruby_system.ll_controllers1: executing forward_eviction_to_cpu
5041 : board.cache_hierarchy.ruby_system.ll_controllers1: executing fi_sendInvAck
5042 : board.cache_hierarchy.ruby_system.ll_controllers1: executing fi_sendInvAck
5043 : board.cache_hierarchy.ruby_system.ll_controllers1: executing fi_sendInvAck
5044 : board.cache_hierarchy.ruby_system.ll_controllers1.L1Dcache: Address: 0x10107d880 found
5045 : board.cache_hierarchy.ruby_system.ll_controllers1.L1Dcache: Address: 0x10107d880 found
5046 : board.cache_hierarchy.ruby_system.ll_controllers1.L1Dcache: No tag match for address: 0x10107d880
5047 : board.cache_hierarchy.ruby_system.ll_controllers1.L1Dcache: No tag match for address: 0x10107d880
5048 : board.cache_hierarchy.ruby_system.ll_controllers1.L1Dcache: No tag match for address: 0x10107d880
5049 : board.cache_hierarchy.ruby_system.ll_controllers1.E1Cache_Controller 1], Time: 290489828, state: S, event: Ifetch, addr: 0x10125e5c0
5047 : board.cache_hierarchy.ruby_system.ll_controllers1: MESI_Two_Level-L1cache.sm:843: [ 0x93 0x7 0xc4 0xfc 0x98 0x43 0xba 0x86 0x2f 0x27 0x6 0x10 0x65
5050 :
```

N.B: quando passa da stato S a M, invalida anche la entry nella propria cache, tanto è vero che la prima volta, in cui ci si trovava già in stato M, dopo i messaggi

LLSC Monitor - clearing due to store conditional - addr=0x10107d880 - cpu=0

global: Testing Lock for addr: 0x10107d880 cur 0 con 0

global: Clear Lock for addr: 0x10107d880

veniva comunque fatta una hit. Mentre da quel punto in poi, dopo la transizione da S a M, abbiamo sempre una miss.

# Semaphores e Mutex

Dopo aver realizzato un implementazione per la sincronizzazione fra thread con i semafori e i mutex, ci siamo resi conto che venivano tradotti dal compilatore di nuovo come delle load reserve store conditional. Quindi il loro funzionamento era analogo alle implementazioni, più semplici e facilmente analizzabili dal simulatore, svolte precedentemente.

Ad esempio per il semaforo:

## Atomic operations

```
##Include <stditb.h>
##Include <stditb.h
##Include <stditb.h>
##Include <stditb.h
##Include <std>##Include <stditb.h
##Include <stditb.h
##Include <stditb.h
##Include <stditb.h
##Include <std>##Include <stditb.h
##Include <stditb.h
##Include <std>##Include <stditb.h
##Include <stdit
```

Per le operazioni atomiche abbiamo creato 2 threads che eseguono in un ciclo 10 incrementi ad una variabile condivisa, in modo che la zona critica fosse più lunga e permettesse ai 2 thread di sovrapporsi.

Dopo aver analizzato la simulazione di gem5, ci siamo resi conto che il loro funzionamento era strettamente legato al modello di memoria delle cache, basandosi sul fatto che un entry nello stato M invalidasse quelle di tutti gli altri e la tenesse nello stato M fino al completamento dell'operazione atomica, seguendo una logica riportata nel sequence diagram seguente.

#### Atomic operations



### **Fences**

```
#include satdow.h>
#include satomics
#include spthread.h>
#include spthread.spth.pips.h>
#include spthread.spthread.spth.pips.h>
#include spthread.spthread.spth.pips.h>
#include spthread.spthread.spthread.spthread.spthread.spthread.spthread.spthread.spthread.spthread.spthread.spthread.spthread.spthread.spthread.spthread.spthread.spthread
```

Per testare le fences abbiamo sfruttato la logica di acquire release così che si potessero testare anche delle fence più deboli oltre alla classica istruzione "fence" in grado di impedire il reordering in entrambi i versi.



LDAR e STLR rappresentano l'acquire e la release, mentre LDR e STR rappresentano la load e la store. In assembly la store acquire e load release vengono tradotte tramite in fence e decoratori di istruzione (.aq e .rl):

 acquire viene tradotto come una fence seguita da un'operazione atomica marchiata come acquire, la quale impedisce qualsiasi operazione successiva di venire riordinata e completata prima dell'operazione atomica.

In questo modo si ottiene un ordine completo, al pari di un'operazione circondata da 2 fences



- release viene tradotta come una semplice load preceduta e seguita da 2 fences, così da forzare un ordine completo per quest'operazione



Dopo aver eseguito vari test si può notare come senza e fences create dalla logica di acquire-release il thread consumer è rileva numerose inconsistenze di memoria



## Implementazioni

#### **Atomic**

La difficoltà nell'implementare istruzioni atomiche in una CPU sta nel riuscire a eseguire multiple operazioni senza stravolgere la pipeline delle istruzioni ordinarie.

Una soluzione è inserire una piccola ALU, capace di eseguire solamente un subset di istruzioni, che rappresenta il numero di operazioni atomiche concesse da RISC-V, ovvero: SWAP, ADD, AND, OR, XOR, MAX e MIN.

Per garantire coerenza all'interno del processore, la pipeline modificata sarà in grado di eseguire nello stesso ciclo di pipeline un accesso a memoria e l'uso dello stesso risultato. Come si può notare dall'esempio riportato, la soluzione riesce a calcolare rs1+offset nello stadio di EX, accedere alla memoria tramite l'interconnect, nello stadio di MEM, e utilizzare il risultato come input della nuova ALU, per poi andare a salvare finalmente il risultato in memoria ancora tramite l'interconnect.



#### LL SC

Per porter supportare una architettura che faccia uso di istruzioni Load-link/store-conditional, abbiamo pensato ad una soluzione che prevede una nuova struttura di memoria, condivisa tra i vari core del processore.

Questa struttura prevede una sola entry per ogni core, e ognuna contiene l'indirizzo di una pagina di memoria, un offset che si riferisce all'indirizzo su cui la LL ha preso una reservation, e un bit di validità per indicare se il core in questione ha ancora la reservation su quella regione di memoria.

Ogni volta che un core esegue una LL, questo andrà ad aggiornare la propria entry nella tabella, e provvede ad invalidare tutte le righe degli altri core che avevano privilegi sullo stesso indirizzo.

A questo punto, prima di eseguire la store conditional, il core dovrà controllare di avere il bit di validità settato ad 1, altrimenti la store conditional fallirà e la branch che la segue riporterà l'esecuzione del codice alla load link.



#### Fences

...